随着互联网和智能手机的广泛影响,电子商务平台的用户群越来越多。由于本地语言用户的英语不是熟悉的,因此他们首选的浏览模式是他们的区域语言或区域语言和英语的组合。从我们最近关于查询数据的研究中,我们注意到我们收到的许多查询都是代码混合物,特别是hinglish,即用英语(拉丁)脚本写的一个或多个印地语单词的查询。我们为代码混合查询转换提出了一种基于变压器的方法,以使用户可以通过这些查询进行搜索。我们证明了在该任务上未标记的英语文本的大型语料库中训练的预训练的编码模型的有效性。使用通用域翻译模型,我们创建了一个伪标记的数据集,用于培训有关搜索查询的模型,并验证了各种数据增强技术的有效性。此外,为了减少模型的延迟,我们使用知识蒸馏和权重量化。该方法的有效性已通过实验评估和A/B测试验证。该模型目前在Flipkart应用程序和网站上直播,可供数百万个查询。
translated by 谷歌翻译